查看原文
其他

2021美赛官方最新通知!数据提前给!

科研交流 2022-10-08

The following article is from 老哥带你学数模 Author 科研交流

亲爱的小伙伴们
1.9号美赛官方最新消息


2021 MCM Problem C (data insights) will require access to a large dataset. COMAP will be making this data available for download on Jan 21, 2021. The contest problems become available for teams to view at precisely 5:00 p.m. EST on Thurs February 4, 2021 on the contest websites. 


(由于2021年MCM比赛的Problem C题目需要用到一个大数据集。COMAP主办方决定将在2021年1月21日公布该数据,并提供给参赛队伍下载。所有比赛题目将在美国东部时间2021年2月4日下午5点准时在COMAP官网公布。请注意美国东部现在是冬令时,与中国时差为13小时!)



美赛赛题共有6个不同的类型,其中A:连续型;B离散型;C:大数据;D:运筹学/网络科学;E:环境科学;F:政策类。本次官方提前公布大数据类型的题目主要目的还是防止因数据下载或读取等原因导致浪费大量的时间,并且提醒大家想做大数据类型的题目需要学会大数据处理的相关技术或方法,以免到时候连数据都不会处理,更不要说建模了


老哥预测21号发布的数据可能会有两种情况:


第一是可以下载但提前进行了加密,这表示数据量确实很大,下载可能需要很长的时间,为防止比赛时网络问题导致下载出错,因此建议大家提前下载好。


第二是数据能下载也能打开,这种情况概率不大,但也有可能,主要是数据量不仅大而且较为繁琐,比如可能参数过多或数据格式不常见,提醒参赛队员提前搞清楚各种参数的含义或者学会读取该数据,以免比赛时搞不懂数据读取的方法而浪费大量时间


不管是哪种预测,我们都要明白的是,数据量确实很大,务必要提前学会大数据处理的相关方法,提前做好准备,比赛才能游刃有余!


针对大数据类问题,网上使用较多的框架主要有Apache Hadoop、Apache Spark、Apache Flink等等,但上述框架处理的起码都是上百T的数据了,一般类似于阿里巴巴、腾讯等大型公司海量数据处理才用到,美赛估计不会用


大数据读取和可视化处理非常重要,尤其是可视化做的好基本等于成功了一半,那数学建模中大数据读取和可视化常用到的语言有哪些呢,其实主要有Python、R语言和SQL数据库语言较为常用,本次我们主要说一下R语言,其能够做出各类精美的大数据图,效果还是刚刚的,对于其他问题也可以用到。


众所周知,R语言的主要优势在于各种包,有的包可以极大的提高工作效率,


ggplot2是R语言最为强大的作图软件包,强于其自成一派的数据可视化理念。当熟悉了ggplot2的基本套路后,数据可视化工作将变得非常轻松而有条理。


以下是利用R语言ggplot2绘制各种图:



R语言ggplot2的使用介绍可以后台回复“大数据”,有完整的使用介绍哈

另外目前很多商业大数据分析工具也很好用,毕竟也不是所有企业都愿意用编程去处理数据的,这里介绍一下FineBI,FineBI是为大数据量提供数据处理、ETL、Dashboard报表展示、动态分析、报表管理的可视化分析工具


FineBI主要的优势是数据读取速度快,支持超大数据量的分析,多种展示形式等,目前已经发展成国内领先的大数据在线处理服务商。




FineBI能从很多种数据源导入数据:如Excel,CSV,XML,以及各类数据库(SQL Server,Oracle,My SQL等),两大主流开源平台(Hadoop,Spark)等等。最常用的方式是连接数据库和导入excel数据,这也正好切合数学建模数据常常以表格形式给出的特点。


FineBI不仅能够快速读取大数据,还可以对数据进行相关性分析,预测、异常数据预警等功能,具体的可以观看其宣传视频哈



目前也有免费试用的版本等,大家也可以去试一下,做出来的大数据可视化结果还是很漂亮的


(部分信息来自于知乎wuliashine博主)


其他的大数据处理工具还有:D3、HighCharts、ECharts等等,但很多都是付费的,也都各有优缺点,大家可以自行去了解一下哈。


更多的大数据读取和可视化处理平台等,可以关注老哥带你学数模,后台回复“大数据”,给大家提供更多的讲解和案例介绍哈

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存